The Effect of Modeling Human Rationality Level on Learning Rewards from Multiple Feedback Types

نویسندگان

چکیده

When inferring reward functions from human behavior (be it demonstrations, comparisons, physical corrections, or e-stops), has proven useful to model the as making noisy-rational choices, with a "rationality coefficient" capturing how much noise entropy we expect see in behavior. Prior work typically sets rationality level constant value, regardless of type, quality, feedback. However, many settings, giving one type feedback (e.g. demonstration) may be more difficult than different answering comparison query). Thus, less depending on In this work, advocate that grounding coefficient real data for each rather assuming default significant positive effect learning. We test both simulated experiments and user study find overestimating can have dire effects learning accuracy regret. also fitting enables better learning, even when deviates significantly choice due systematic biases. Further, affects informativeness type: surprisingly, demonstrations are not always most informative---when acts very suboptimally, comparisons actually become informative, is same both. Ultimately, our results emphasize importance advantage paying attention assumed human-rationality-level, especially agents actively learn multiple types

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

the effect of traffic density on the accident externality from driving the case study of tehran

در این پژوهش به بررسی اثر افزایش ترافیک بر روی تعداد تصادفات پرداخته شده است. به این منظور 30 تقاطع در شهر تهران بطور تصادفی انتخاب گردید و تعداد تصادفات ماهیانه در این تقاطعات در طول سالهای 89-90 از سازمان کنترل ترافیک شهر تهران استخراج گردید و با استفاده از مدل داده های تابلویی و نرم افزار eviews مدل خطی و درجه دوم تخمین زده شد و در نهایت این نتیجه حاصل شد که تقاطعات پر ترافیک تر تعداد تصادفا...

15 صفحه اول

the effect of audio-taped feedback and conferencing on efl students’ writing ability

: بازخورد یکی از جنبه ها ی ضروری هر دوره ی آموزشی نگارشی – زبانی انگلیسی می باشد که به زبان آموزان مهارت های مورد نیاز جهت بهبود توانایی نگارشی را می آموزد. این تحقیق، با استفاده از طرح پیش آزمون، پس آزمون، و پسا آزمون ، سعی دارد تا تأ?یر نوع بازخورد مدرس در کمک به زبان آموزان جهت بازنویسی نوشته هایشان رابررسی کند ، و آیا اینکه رابطه ای بین نوع بازخورد مدرس و توانایی زبان آموزان در تصحیح غلط ها...

the effect of authentic listening materials on the listening proficiency of efl learners in the intermediate level

having conducted the experiment and analysed the data, the researcher computed the groups mean scores and variances for the test relating to the research question. as the final atep, a t-test was conodonted for the hypothesis. as noted earlier, the significance level was determined at .05 and .01 respectively. the observed t-value was higher than the critical t-value at. 5 and .01 levels. conse...

15 صفحه اول

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ژورنال

عنوان ژورنال: Proceedings of the ... AAAI Conference on Artificial Intelligence

سال: 2023

ISSN: ['2159-5399', '2374-3468']

DOI: https://doi.org/10.1609/aaai.v37i5.25740